Semantic Clustering using Bag-of-Bag-of-Features
نویسندگان
چکیده
RÉSUMÉ. Le calcul de distances entre représentations textuelles est au cœur de nombreuses applications du Traitement Automatique des Langues. Les approches standard initiallement développées pour la recherche d’information sont alors le plus souvent utilisées. Dans la plupart des cas, il est donc adopté une description sac-de-mots (ou sac-d’attributs) avec des pondérations de type TF-IDF ou des variantes, une représentation vectorielle et des fonctions classiques de similarité comme le cosinus. Dans ce papier, nous nous intéressons à l’une de ces tâches, à savoir le clustering sémantique d’entités extraites d’un corpus. Nous défendons l’idée que pour ce type de tâches, il est possible d’utiliser des représentations et des mesures de similarités plus adaptées que celles usuellement employées. Plus précisément, nous explorons l’utilisation de représentations alternatives des entités appelées sacs-de-vecteurs ou sacs-de-sacs-de-mots. Dans ce modèle, chaque entité est définie non pas par un unique vecteur, mais par un ensemble de vecteurs, chacun de ces vecteurs étant construit à partir d’une occurrence de l’entité. Pour utiliser cette représentation, nous utilisons et définissons des extensions des mesures classiques du modèle vectoriel (cosinus, Jaccard, produit scalaire...). Ces différents constituants sont testés sur notre tâche de clustering, et nous montrons que cette représentation en sac-de-vecteurs améliore significativement les résultats par rapport à une approche standard en sac-de-mots. 1
منابع مشابه
Proper Noun Semantic Clustering Using Bag-of-Vectors
In this paper, we propose a model for semantic clustering of entities extracted from a text, and we apply it to a Proper Noun classification task. This model is based on a new method to compute the similarity between the entities. Indeed, the classical way of calculating similarity is to build a feature vector or Bag-of-Features for each entity and then use classical similarity functions like C...
متن کاملTion for Document Classification
The bag-of-words (BOW) model is the common approach for classifying documents, where words are used as feature for training a classifier. This generally involves a huge number of features. Some techniques, such as Latent Semantic Analysis (LSA) or Latent Dirichlet Allocation (LDA), have been designed to summarize documents in a lower dimension with the least semantic information loss. Some sema...
متن کاملN-gram-Based Low-Dimensional Representation for Document Classification
The bag-of-words (BOW) model is the common approach for classifying documents, where words are used as feature for training a classifier. This generally involves a huge number of features. Some techniques, such as Latent Semantic Analysis (LSA) or Latent Dirichlet Allocation (LDA), have been designed to summarize documents in a lower dimension with the least semantic information loss. Some sema...
متن کاملA Novel Method for Content Base Image Retrieval Using Combination of Local and Global Features
Content-based image retrieval (CBIR) has been an active research topic in the last decade. In this paper we proposed an image retrieval method using global and local features. Firstly, for local features extraction, SURF algorithm produces a set of interest points for each image and a set of 64-dimensional descriptors for each interest points and then to use Bag of Visual Words model, a cluster...
متن کاملLexical Chains as Document Features
Document clustering and classification is usually done by representing the documents using a bag of words scheme. This scheme ignores many of the linguistic and semantic features contained in text documents. We propose here an alternative representation for documents using Lexical Chains. We compare the performance of the new representation against the old one on a clustering task. We show that...
متن کاملA Novel Method for Content Base Image Retrieval Using Combination of Local and Global Features
Content-based image retrieval (CBIR) has been an active research topic in the last decade. In this paper we proposed an image retrieval method using global and local features. Firstly, for local features extraction, SURF algorithm produces a set of interest points for each image and a set of 64-dimensional descriptors for each interest points and then to use Bag of Visual Words model, a cluster...
متن کامل